RVC + VC Client

2023/4/9

@Yanagi_aiai: ボイスチェンジャーのRVCとVC Client、触ってみたけど本当にすごい…

まだ話題になってないけど、画像生成AIで半年前から起きたような混乱が音声でも同様におきる気しかしない

これが広まらない未来はちょっと見えない…

...

導入の参考にさせていただいた記事：「RVC」+「VC Client」で自分の声を任意の声にリアルタイム変換しよう！ - Eヤツのブログ

・この記事の最終目標は「リアルタイム変換でずんだもんボイスになってDiscordで通話する」です。

リアルタイム声質変換

流れ

RVCで学習モデル（pthファイル）を作成

VC Clientで学習モデルをつかう

RVCで学習モデル（pthファイル）を作成

東北イタコ、ずんだもん、四国めたん、九州そらマルチモーダルデータベース

研究目的の利用でお願いします。

読唇の研究、音声合成の研究、音声認識の研究、リップシンクの研究、その他の研究にお役立てください。

観賞用としてダウンロードするのはＮＧとなります。

研究の範囲内で機械学習などでできあがった音声などを公開する分には問題ありません。

downwoad 「ROHAN4600_zundamon_voice.zip」（6.6G）

download 「ITAコーパスマルチモーダルデータベース→ずんだもんボイスデータ」939MB

click go-web.bat

https://gyazo.com/972752ae17c66b61488f8ff2d03ad959

step1：填写实验配置。实验数据放在logs下，每个实验一个文件夹，需手工输入实验名路径，内含实验配置，日志，训练得到的模型文件。

ステップ1：実験の設定を入力してください。実験データはlogsフォルダに格納され、各実験は別々のフォルダに保存されます。実験名のパスを手動で入力する必要があります。フォルダには、実験の設定、ログ、トレーニングで得られたモデルファイルが含まれています。

目标采样率

目標サンプリングレート

模型是否带音高指导(唱歌一定要，语音可以不要)

モデルに音高指導が含まれているか（歌唱には必要ですが、音声には必要ありません）

これを入れると強制的にpitchが補正される？基素.icon

step2a：自动遍历训练文件夹下所有可解码成音频的文件并进行切片归一化，在实验目录下生成2个wav文件夹；暂时只支持单人训练。

トレーニングフォルダー内のすべての音声に変換可能なファイルを自動的にトラバースして、スライスを正規化し、実験ディレクトリに2つのwavフォルダを生成します。現在は、単一のトレーニングのみをサポートしています。

请指定说话人id

話者IDを指定してください。

输出信息

出力情報

https://gyazo.com/5f78ac377926c5b3bbfb1816e4044765

https://gyazo.com/78ad9625c2e20ffb1a6441945dd0f36c

step2b：使用CPU提取音高(如果模型带音高)，使用GPU提取特征(选择卡号)

CPUを使用してピッチを抽出します（モデルにピッチがある場合）。GPUを使用して特徴を抽出します（カード番号を選択します）。

以-分隔输入使用的卡号，例如 0-1-2 使用卡0和卡1和卡2

入力で使用するカードを「-」で区切ります。例：0-1-2はカード0、カード1、カード2を使用します。

显卡信息

GPU情報

提取音高使用的CPU进程数

ピッチ抽出に使用するCPUプロセス数

选择音高提取算法:输入歌声可用pm提速,高质量语音但CPU差可用dio提速,harvest质量更好但慢

ピッチ抽出アルゴリズムを選択します：入力の歌声には、pmを使用して速度を上げることができます。高品質の音声ですが、CPUが悪い場合はDIOを使用することができます。harvestはより良い品質ですが、遅いです。

特征提取

特徴抽出

step3：填写训练设置，开始训练模型和索引

トレーニング設定を入力し、モデルとインデックスのトレーニングを開始する

是否仅保存最新的ckpt文件以节省硬盘空间

最新のckptファイルのみを保存して、ディスクスペースを節約するかどうか

是否缓存所有训练集至显存。10min以下小数据可缓存以加速训练，大数据缓存会炸显存也加不了多少速

トレーニングセット全体をキャッシュし、GPUメモリに保存するかどうか。10分以内の小規模データは、トレーニングを加速するためにキャッシュできますが、大規模データは、メモリを圧迫するだけで、速度向上があまりありません。

加载预训练底模G路径

事前学習済みのベースモデルGのパスを読み込む

加载预训练底模D路径

事前学習済みのベースモデルDのパスを読み込む

以-分隔输入使用的卡号，例如 0-1-2 使用卡0和卡1和卡2

カード番号を-で区切って入力し、使用するカード番号を指定します。例：0-1-2 はカード0とカード1とカード2を使用します。

batch_size 8数分で終了

@Yanagi_aiai: RVCで音声学習をするためのツールを、下記リポジトリに投げていこうと思います

【今あるもの】 .wavファイルをn秒区切りで分割して学習素材にするやつ

【今後予定】

・分割したwavファイルを無音のものと、音声ありで選別するスクリプト

https://github.com/Yanagi-ai/wav_splitter

VC Clientで学習モデルをつかう

VC Client

RVC(Retrieval-based-Voice-Conversion)の動作には hubert のモデルが必要になります。https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main からhubert_base.ptをダウンロードして、バッチファイルがあるフォルダに格納してください。

Windows 環境で Nvidia の GPU をお持ちの方は多くの場合は ONNX(cpu,cuda),PyTorch(cpu)版で動きます

https://192.168.86.46:18888/?modelType=RVC

https://gyazo.com/991132c40318bef9c404cb0abd2fbf4c

https://gyazo.com/7cf844ac2553f102e46d53f458cbd656

VC PROCESSING!!!! EXCEPTION!!! "slow_conv2d_cpu"

がびがび

sampling rate?

Advanced Setting > Sending Sample Rate

24000を選択し直したらましになった

疑問

https://gyazo.com/6d5cf0cba3e373caadc5e03925845c4d

ここの一致は必要？